iT邦幫忙

2022 iThome 鐵人賽

1
AI & Data

16S rRNA 從次世代到三代定序-生資QIIME2資料分析趣系列 第 31

[Day 31] NGS QIIME2 : 尋找生物標記(Biomarker) LEfSe + dokdo 套件 (上-原理與安裝)

  • 分享至 

  • xImage
  •  

尋找各組別的 Biomarker 菌種

在先前教學文章中介紹了各式各樣生資工具,
儘管 Alpha 與 Beta 多樣性分析可以一覽組內與組間的特徵,
若想要一窺究竟是哪些菌種在組別間數一數二發光發熱
LEfSe 就是一款以統計分析為基礎,
在組別間進行比較,
獲得各組別微生物生物標記 (Biomarker)的軟體。

https://ithelp.ithome.com.tw/upload/images/20230509/20151510hSN9hyh16h.png

左側由內到外的每一層同心圓分別代表界~種的生物階層,每一點代表一個某階層的名稱,黃色表示無顯著差異,紅綠等顏色則代表該菌種在對應組別具有顯著差異。
右側則為 LDA Score 結果,在本圖中橫軸負數代表偏向紅色組,正數則代表偏向綠色組,量化後絕對值後數值越大代表越顯著。
(Segata, Nicola, et al., 2011)

為方便後續講解我們做個小約定,
在本篇提及的「菌種」二字指的是不同階層的分類名稱,
暫時拋下生物嚴謹定義的種一詞為「種 (species)」層級,
因為我們會提及不同階層,
例如菌物界為一菌種、擬桿菌門為一菌種,
在我找到一個合適的名詞取代之前大家忍耐一下> <

LEfSe 分析原理三部曲

https://ithelp.ithome.com.tw/upload/images/20230509/20151510KQMbU2sk05.png

上圖中的a, b, c即對應下列點 1, 2, 3,Class1, Class2即不同組別。
(Segata, Nicola, et al., 2011)

  1. 挑選出多組間豐富度有差異的菌種們 (初賽)

    • Kruskal-Wallis 多樣本中位數差異檢定
      在不同組別的之中,想知道多組的樣本間該菌種是否有差異,
      LEfSe 第一步使用了Kruskal-Wallis檢定,
      此檢定為無母數方法,樣本數較小(小於30),
      且適合欲分析對象含有三組以上樣本,
      最終得出具有顯著差異之候選菌種們,
      在上圖(a)的例子中B, D, E, Y 通過了初賽。
  2. 將有差異的菌種們於兩組間相互比較 (複賽)

    • Wilcoxon 雙樣本中位數差異檢定
      得出具有顯著差異之候選菌種們之後,
      進入兩兩組別互相廝殺的賽制中,
      LEfSe 第二步使用了 Wilcoxon 檢定,
      該檢定同樣為無母數方法,樣本數較小(小於30),
      且適合欲分析對象為兩組樣本相互成對,
      最終得出兩兩比較後仍有顯著差異晉級之候選菌種們,
      在上圖(b)的例子中B, D, Y通過了複賽。
  3. 評估候選菌種的影響力 (決賽並排名)

    • LDA (Linear Discriminant Analysis) 線性判別分析
      晉級決賽的候選菌種們,
      最後要進行評估此菌種在組中的影響力,
      並化為分數進行排名 (LDA score)。
      LDA 與 先前提及 Beta Diversity 中 PCA 相似,
      都是透過降維方式了解各樣本間的相似程度,
      但 PCA 使用的是非監督式學習 (unsupervised learning)
      而 LDA 採用的是監督式學習 (supervised learning),
      想不到這裡也藏了機器學習(?) 可參考Tommy大大文章
      用個超級輕鬆講法就是 LDA 相對於 PCA ,
      在請電腦做降維前,先告訴它 :
      「嘿嘿我們哪些樣本是屬於哪一組(告知分組狀態)」,
      電腦之後就能比較清楚的劃分組間的界線,
      留下更容易區分各組的維度,
      在上圖(c)的例子中將B, D, Y 量化顯著差異的程度。

所需的輸入檔案

  1. 分析前的註釋檔案 sample-metadata.tsv [Day 06]
  2. 品質管制後的檔案 table-dada2.qza [Day 08]
  3. 物種分配後的檔案 taxonomy.qza [Day 11]

所需的環境

LEfSe 所吃的輸入檔案比 [Day 19] PICRUSt2 所需的檔案格式複雜且傲嬌,
有位偉大的前輩受不了製作輸入檔案的痛苦,
開發了dokdo 套件拯救芸芸眾生。

在啟動 QIIME2 環境的前提下,
安裝 dokdo 套件,幫助製作 LEfSe 所需的輸入檔案。

經測試發現,QIIME2版本需要在2022.2(含)以下才能順利安裝dokdo,
因此本篇文章以QIIME2 2022.2版本教學。

安裝 QIIME2 2022.2

wget https://data.qiime2.org/distro/core/qiime2-2022.2-py38-linux-conda.yml

conda env create -n qiime2-2022.2 --file qiime2-2022.2-py38-linux-conda.yml

啟動 QIIME2 環境

conda activate qiime2-2022.2

安裝 dokdo 套件

conda install -c hcc dokdo

下回會介紹分析的實作 !

我也不知道為什麼會有 Day 31 ,興致一來就有了。


上一篇
[Day 30] 微生物基因組 16S rRNA 生資定序分析 : 教學資源分享
下一篇
[Day 32] NGS QIIME2 : 尋找生物標記(Biomarker) LEfSe + dokdo 套件 (中-實作)
系列文
16S rRNA 從次世代到三代定序-生資QIIME2資料分析趣33
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言